(网经社讯)10月14日,腾讯优图实验室正式开源了其通用文本表示模型Youtu-Embedding。该模型专为企业级应用设计,参数规模达20亿,支持文本检索、意图理解、相似度判断、分类聚类及重排序等六类核心自然语言处理任务。
据网经社云计算台(CC.100EC.CN)了解,Youtu-Embedding通过三阶段训练流程提升模型性能:首先进行大规模基础预训练,使用3万亿中英文Token语料夯实语言理解基础;随后采用弱监督对齐技术,使模型能够辨识语义相近但表述不同的文本;最后通过协同-判别式微调框架,结合统一数据格式、任务专属损失函数和动态采样机制,有效解决了多任务训练中的负迁移问题。
在技术评测方面,该模型在中文文本嵌入基准CMTEB上以77.46的综合得分位居榜首(截至2025年9月),在检索、分类、聚类等细分任务中均展现出领先性能。模型特别适用于RAG(检索增强生成)系统、智能客服和知识管理场景,能有效提升语义匹配准确率并减少大模型幻觉现象。
目前,模型权重、推理代码及完整训练框架已在GitHub和Hugging Face平台开源,支持本地部署与云端API调用两种方式,可集成至LangChain、LlamaIndex等主流开发框架。